DETRs Beat YOLOs on Real-time Object Detection

动机

DETRs基于Transformer的优势与挑战：

DETRs基于Transformer由于其简化的架构和对手工设计组件（如 NMS非最大抑制，一种后处理算法，用于去除冗余的重叠框，以提高检测模型输出的精确性，传统检测器依赖此方法来优化检测结果。）的消除而备受关注。
然而，DETRs 的高计算成本使其难以满足检测的需求，无法发挥其无NMS架构在 inference指模型在训练之后，实际执行对象检测的过程，用于评估模型在真实场景中的应用效果。 speed上的优势。

多尺度特征的影响： Multi-scale features 的引入有助于加速训练收敛，但也导致输入到编码器的序列长度显著增加。交互产生的高计算成本使 Transformer编码器成为计算瓶颈。

Query selection 的问题：

以往的研究表明，难以优化的 object queries 阻碍了 DETRs
现有的 query selection方法直接采用分类分数进行选择，忽略了检测器需要同时建模目标的类别和位置信息，这导致具有低定位置信度的编码器特征被选为初始查询，从而引入不确定性，影响 DETRs的性能。

总体框架

overview

高效混合编码器设计：

传统的DETR模型在处理多尺度特征时，编码器成为了计算瓶颈。这是因为多尺度特征的引入显著增加了输入编码器的序列长度，从而导致高计算开销。RT-DETR采用了高效的混合编码器，由两个模块组成：基于注意力的内部尺度特征交互模块（AIFI）和基于CNN的跨尺度特征融合模块（CCFF）。AIFI模块只对高层特征（S5）进行注意力编码，处理时间更快；CCFF模块则通过卷积层对相邻尺度的特征进行融合，以减少冗余并提升信息整合的效率。

CCFF：

跨尺度特征融合：CCFF 负责将来自不同尺度的特征进行融合，主要目标是结合不同层级的特征信息，例如，低层特征包含更多的细节信息，而高层特征包含更多的语义信息。
CNN 结构：CCFF 采用基于 CNN 的结构（如 PANet-style），通过卷积层和融合块（fusion block）实现跨尺度特征的有效融合。
融合块 (Fusion Block)：融合块包含 1x1 卷积调整通道数，以及 N 个 RepBlock 进行特征融合，并通过 element-wise add 融合两条路径的输出。

CCFF

\begin{align} Q = K = V = \text{Flatten}(S_5), \\ F_5 = \text{Reshape}(\text{AIFI}(Q, K, V)), \\ O = \text{CCFF}(\{S_3, S_4, F_5\}), \end{align}

不确定性最小查询选择：

为了减少在DETR中优化对象查询的难度，若干后续工作使用置信度分数从编码器中选择前K个特征来初始化对象查询（或仅仅是位置查询）。置信度分数表示该特征包含前景对象的可能性。检测器需要同时对对象的类别和位置进行建模。特征不确定性U被定义为定位P和分类C的预测分布之间的差异。为了最小化查询的不确定性，将不确定性整合到损失函数中，以便进行基于梯度的优化。

\begin{align} U(\hat{X}) = & \|P(\hat{X}) - C(\hat{X})\|, \quad \hat{X} \in \mathbb{R}^D \\ L(\hat{X}, \hat{Y}, Y) = & L_{\text{box}}(\hat{b}, b) + L_{\text{cls}}(U(\hat{X}), \hat{c}, c) \end{align}

下图是作者做的实验，展示通过 uncertainty-minimal query selection选出的特征，在质量上优于传统 vanilla query selection方法。横轴 (IoU score): 表示预测边界框与真实边界框的 Intersection over Union（IoU）得分，用于衡量定位的准确性。IoU 分数越高，定位越准确。纵轴 (Classification score): 表示分类的置信度得分，用于衡量该特征包含前景物体的可能性。分类得分越高，表示该特征越有可能是真正的物体。分析如下：

紫色点 (Uncertainty-minimal) 更多地集中在图的右上角，这表明使用 uncertainty-minimal query selection选出的特征通常具有更高的分类得分和更高的 IoU 得分，也就是同时拥有更高的分类置信度和更精确的定位。
绿色点 (Vanilla) 则相对分散，尤其是在高 IoU 得分区域，分类得分相对较低，表明 vanilla query selection倾向于选择一些定位准确但分类置信度不高的特征。
密度曲线也显示，uncertainty-minimal query selection在高分类得分和高 IoU 得分区域的密度更高，进一步验证了其选择的特征质量更高。

uncertain

总结

RT-DETR 是首个实时端到端物体检测器，其核心目标是在保持检测精度的同时，实现高速处理。该研究的目标是解决YOLO系列模型在非极大值抑制（NMS）后处理环节中存在的速度和精度折中问题。

RT-DETR-R50 在 COCO val2017 上达到了 53.1% 的平均准确率（AP），在 T4 GPU 上达到了 108 帧每秒（FPS），而 RT-DETR-R101 则达到了 54.3% AP 和 74 FPS，RT-DETR-R50 在准确性上比 DINO-Deformable-DETR-R50 高出 2.2% AP（53.1% AP 对比 50.9% AP），在 FPS 上快了约 21 倍（108 FPS 对比 5 FPS），显著提高了 DETR 的准确性和速度。在使用 Objects365 进行预训练后，RT-DETR-R50 / R101 分别达到了 55.3% / 56.2% AP，实现了显著的性能提升。

🚀 设计高效混合编码器，快速处理多尺度特征并提高推理速度。
🔍 提出不确定性最小化查询选择，优化初始查询，提高检测精度。
⚙️ 支持灵活的速度调节，通过调整解码器层数适应不同应用场景。

动机​

总体框架​

高效混合编码器设计：​

不确定性最小查询选择：​

总结​

动机

总体框架

高效混合编码器设计：

不确定性最小查询选择：

总结